Galbraith_的博客_广小辉_CSDN博客-算法技术栈,人工智能系列机器...-免疫在线蚂蚁淘旗下平台-

当前位置：首页 > 新闻动态 >

热卖商品

galbraith/Stearic acid/57-11-4

galbraith/Dichloromethane/75-09-2

galbraith/Fatty acids/67254-79-9

galbraith/Oleic acid/112-80-1

新闻详情

Galbraith_的博客_广小辉_CSDN博客-算法技术栈,人工智能系列机器...

来自 : CSDN技术社区发布时间：2021-03-25

获得14次收藏荣誉勋章

所有勋章兴趣领域 #人工智能 #语音识别#算法#数据分析#Flink#机器学习#TensorFlow#自然语言处理#深度学习#PyTorch#神经网络#NLP#视觉/OpenCV#Python#图像处理 TA的专栏

人工智能系列推荐系统 11篇

番外篇 2篇

人工智能系列机器学习1-机器学习的基本概念 21篇

人工智能系列大数据1-spark中的dataframe 4篇

算法技术栈 23篇最近文章资源问答课程帖子收藏关注/订阅

数据结构算法--链表系列 1.判断链表是否有环及求环点 # coding: utf-8\"\"\"判断是否相交求交点，判断是否有环，求环点，都可以利用hashset的方法，\"\"\"from __future__ import print_functionclass LinkNode: def __init__(self, val): self.val = val self.next = Noneval_list = [5, 4, 9, 1, 0,4]node_list = [LinkNode(_) 原创

32阅读

0评论

0点赞发布博客于 3 月前数据结构算法--链表系列 1. 判断链表是否有交点主要分两种：判断两个链表是否有交点在1的基础上，求两个链表的交点；1. 判断两个链表是否有交点总结了三种方法利用hashset的方法def has_insection_3(headA): \"\"\" 也可以使用hash_set，如果 \"\"\" s = set() while headA: if headA not in s: s.add(headA) else: 原创

25阅读

0评论

0点赞发布博客于 3 月前 python实现tensorflow2.0的常见优化器 tensorlow2.0中的常见优化器如下：其中，adam是最常使用的，比如esmm论文中使用。下面通过python实现几种常见的优化器。其中使用了tensorflow2.0 的tf.GradientTape来自动求微分。数据集构造build dataimport tensorflow as tfimport numpy as npimport seaborn as snsfrom matplotlib import pyplot as pltx = np.arange(-3, 7, 0 原创

106阅读

0评论

0点赞发布博客于 5 月前大数据1 ---Spark 基础解析 Hadoop 历史2003和2004年的Google两篇论文发展历史： 2011年 1.0版本 2012年稳定版本 2013年 2.x版本， YARN MR的缺点：基于数据集的计算，面向数据，基本运算规则是从存储介质中获取（采集）数据，然后进行计算，将最后的结果存储回介质中，主要用于一次性计算。不适合数据挖掘和机器学习这样的一种迭代计算。MR是基... 原创

62阅读

0评论

0点赞发布博客于 8 月前推荐系统-基于tf.feature_column构建数据处理pipeline import tensorflow as tfimport pandas as pdpets = {\'pets\': [[2, 4],[ 3, 8],[0 , -1],[1, 0]]} #猫0，狗1，兔子2，猪3df = pd.DataFrame(pets)column = tf.feature_column.categorical_column_with_identity(key=\'... 原创

145阅读

0评论

0点赞发布博客于 10 月前数据结构算法--剑指offer-数组中重复的数字题目描述题目1：找出数组中重复的数字在一个长度为n的数组中，所有的数字都在0-n-1的范围内。数组中某些数字是重复的，但是不知道有几个数字是重复了，也不知道每个数组重复了几次，请找出数组中任意一个重复的数字import copyclass Solution(): def find_duplicate_1(self, nums): \"\"\" ... 原创

72阅读

0评论

0点赞发布博客于 1 年前番外篇--2. 程序员如何跨过30岁这道坎? 一路走来，经历过异想天开、自我膨胀、穷忙焦虑，一度失落挫败到对人生失去激情，直到孩子出生在家接外包那段时间才停下来反思和调整自己，如今重新恢复了对生活和工作的热情。回顾自己的成长之路，分为如下三个阶段：异想天开→幻想破灭膨胀、穷忙→挫败、失落、焦虑、迷茫认清自己、深究原因→开悟、爬坡 1异想天开→幻想破灭毕业后的第一家公司是一家小型初创公司，由于大学... 转载

71阅读

0评论

0点赞发布博客于 1 年前推荐系统-CTR平滑方式背景在电商领域中，经常要计算或者CTR（点击通过率），CVR。以点击率CTR为例，CTR根据统计指标 CTR = 点击量/ 曝光量；具体需要看公司要求，有的是点击uv/ 曝光uv ，有的是点击pv/曝光pv ；然而实际应用中，会遇到两个问题：【新品问题】新商品点击率的预测和计算问题对于新上线的商品，其曝光为0，点击量也为0，此时这件商品的CTR应该为0 还是赋值一个初始值呢？【数据不可... 原创

438阅读

0评论

0点赞发布博客于 1 年前数据结构算法--atoi 和两数相加 leetcode8atoi2addTwoNumbers1. atoi在找到第一个非空字符之前，需要移除掉字符串中的空格字符。如果第一个非空字符是正号或负号，选取该符号，并将其与后面尽可能多的连续的数字组合起来，这部分字符即为整数的值。如果第一个非空字符是数字，则直接将其与之后连续的数字字符组合起来，形成整数。字符串可以在形成整数的字符后面包括多余的字符，... 原创

67阅读

0评论

0点赞发布博客于 1 年前数据结构算法--链表高频题精讲提纲链表简介面试题精讲一些例题例1：链表的插入与删除例2：链表翻转例3：单链表找环及起点和环长度例4：复制带有随机指针的链表例5：链表partition过程总结1. 链表简介链表：一个元素和下一个元素靠指针连接（松散），不能O(1)直接访问到第k个元素单(向)链表：只能找到下一个节点双向链表：能找到上一个和下一个节点循环（单、双）链表：首尾相... 原创

95阅读

0评论

0点赞发布博客于 1 年前推荐系统-深度学习在1688推荐系统中的落地实践前言推荐导购场景在电商中是重要的满足用户“逛”和“买”的场景，本次主要聚焦在深度学习在阿里B2B电商推荐系统中的应用，其中包括商品推荐中的召回（多兴趣Deep Match）、排序(自研DMR)的相关工作，在新兴的互动内容场景(直播、短视频)中通过异构网络来解决异构信息的精准匹配问题。本文分享大纲如下：发展历史商品召回：Deep Match商品排序：DIN-DIEN, DMR内容排序... 原创

860阅读

0评论

0点赞发布博客于 1 年前数据结构算法--栈和队列高频题精讲线性表简介面试题总体分析一些例题：例一：元素出入栈顺序合法性判断例二：两个队列实现一个堆栈例三：两个堆栈实现一个队列例四：支持查询最小值的堆栈例五：单调堆栈–最大直方图例六：单调队列–滑动窗口最大值总结1. 线性表简介堆栈和队列统称为线性表简单的线性表数组和链表可以实现的两种数据结构堆栈后进先出(Last In First Out)DFS思想... 原创

76阅读

0评论

0点赞发布博客于 1 年前数据结构算法--数组高频题目提纲数组简介面试题总体分析选题原则难度经典新颖例题例1：局部最小值例2：第一个缺失的正整数例3：元素间的最大距离例4：只出现一次的数例5：众数问题例6：“前缀和”的应用总结1. 数组简介java: [] ArrayListC++:STL, vector, []C：只有[]输入的数组通常理解为集合，我们自己可以排序，查找注意：C+... 原创

90阅读

0评论

0点赞发布博客于 1 年前推荐系统-- GraphEmbedding awesome-network-embeddingAlso called network representation learning, graph embedding, knowledge embedding, etc.The task is to learn the representations of the vertices from a given network.Graph... 转载

304阅读

0评论

0点赞发布博客于 1 年前数据结构算法--字符串高频题目字符串简介面试题总体分析一些例题：0-1串交换顺序字符的替换与复制交换星号子串变位词单词/字符串翻转总结1. 字符串简介尽量转化成字符数组[python中字符串是不可变类型]和数组相关–内容广泛概念相关：字典序简单操作：插入、删除字符、旋转规则判断：罗马数字转换，是否是合法的整数，浮点数数字运算：大数加法，二进制加法排序、交换（partition过... 原创

101阅读

0评论

0点赞发布博客于 1 年前机器学习 Doc2Vec原理及实战 1. 两种训练方法PV-DM(Distributed Memory Model of Paragraph Vectors)。训练方法如下图所示，构建一个Paragraph向量集合，另外在构建一个词向量集合，wv(word vector)在语料库中是共享的，而pv(paragraph vector)是唯一的，与每个paragraph一一对应。Pv和wv可以有不同的维度，用一个划窗在文本上滑动，用... 原创

239阅读

0评论

1点赞发布博客于 1 年前机器学习 -LDA模型 1. 模型相关参数1. n_components：主题的数量。越大，topic越多，perplexity越小，也越容易过拟合。可以画出n_components vs perplexity的变化曲线来确定；2. doc_topic_prior，文本-主题的先验分布theta，默认为$\\frac{1}{n\\_components}$3. topic_word_prior: 主题-单词先验分布b... 原创

84阅读

0评论

0点赞发布博客于 1 年前机器学习 --文本特征提取TF-IDF 1. CountVectorizermax_df=1.0, min_df=1Max_df表示超过这个阈值的的文档频率的文档会被去除掉【相当于去除语料给定的停止词】Min-df：文档频率小于给定值的文档会被删除掉，学术用语为cut-off【截断】有用的属性：vocabulary_，获取转化的词频词典，是一个有序字典：停止词：单词出现次数太多或者太少的都会被看做停止词。... 原创

243阅读

0评论

0点赞发布博客于 1 年前数据结构算法--列表分割和序列化反向列表 1. Split numbersGiven an array of ints, for example [6, 4, -3, 0, 5, -2, -1, 0, 1, -9],implement in one of the following languagesto move all positive integers to the left, all negative integers to... 原创

492阅读

2评论

0点赞发布博客于 1 年前机器学习 --激活函数sigmoid. tanh. relu对比 1. 三种函数的表达式sigmoid函数【S函数】：表达式g(z)=11+e−zg(z)=\\frac{1}{1+e^{-z}}g(z)=1+e−z1导数：g′(z)=g(z)(1−g(z))g^{\'}(z)=g(z)(1-g(z))g′(z)=g(z)(1−g(z))tanh函数【双S函数】：表达式：f(z)=ez−e−zez+e−zf(z)=\\frac{e^z - e^{-... 原创

256阅读

0评论

0点赞发布博客于 1 年前数据结构算法--二叉树--叶子节点查找二叉树的结构：0 二叉树叶子节点class Node(object): def __init__(self, data, left=None, right=None): self.data = data self.left = left self.right = right def __str__(self):... 原创

317阅读

0评论

0点赞发布博客于 1 年前数据结构算法--树--哈夫曼树(Huffman Tree) 1. 原理2. 在word2vec为什么能够简化计算？3. 代码from collections import OrderedDict# 建立Haffuman树节点class Node(object): def __init__(self, name, data): self.name = name self.data = data... 原创

86阅读

0评论

0点赞发布博客于 1 年前机器学习--删除字符串中出现次数最少的字符后的字符串题目描述实现删除字符串中出现次数最少的字符，若多个字符出现次数一样，则都删除。输出删除这些单词后的字符串，字符串中其它字符保持原来的顺序。输入描述:字符串只包含小写英文字母,不考虑非法输入，输入的字符串长度小于等于20个字节。输出描述:删除字符串中出现次数最少的字符后的字符串。while True: try: new = \'\' ... 原创

88阅读

0评论

0点赞发布博客于 1 年前机器学习---空汽水瓶题目描述有这样一道智力题：“某商店规定：三个空汽水瓶可以换一瓶汽水。小张手上有十个空汽水瓶，她最多可以换多少瓶汽水喝？”答案是5瓶，方法如下：先用9个空瓶子换3瓶汽水，喝掉3瓶满的，喝完以后4个空瓶子，用3个再换一瓶，喝掉这瓶满的，这时候剩2个空瓶子。然后你让老板先借给你一瓶汽水，喝掉这瓶满的，喝完以后用3个空瓶子换一瓶满的还给老板。如果小张手上有n个空汽水瓶，最多可以换多少瓶汽水喝？输... 原创

64阅读

0评论

0点赞发布博客于 1 年前番外篇--1. 简历优化简历错误：1. 犯贱叫简历模板求新颖；站在HR的角度考虑；用智联招聘、前程无忧网站模板就足够了；用HR最熟悉的配方；2. 犯贱错误，跳槽频繁没定型；HR希望看到的是什么？稳定、专一：前序公司忠诚度高；单位时间是否足够长：一年以上或者两年离职原因：客观–公司业务调整，倒闭，搬家套路：一年以上时长，被动离职，万分不舍注意：工作空档期时间一定不能说领导... 原创

237阅读

0评论

0点赞发布博客于 1 年前数据结构算法--排序--希尔排序(shell sort) 希尔排序时间复杂度：平均O(n^1.3),最好为O(n),最坏为0(n ^ 2) 空间复杂度：O(1) 稳定性：不稳定算法解析：希尔排序是直接插入排序的一种改进，又称做缩小增量排序希尔排序是把待排序集合计算出一个增量集合Tn 把待排序集合分成若干个子集，然后每个子集进行直接插入排序，知道Ti=1为止，排序结束实现原理：有一个集合如下图所示：计算增量：gap ... 原创

84阅读

0评论

0点赞发布博客于 1 年前数据结构算法--排序--归并排序（递归和非递归实现）基本思想归并排序是分治思想的一种运用【和快速排序的思想一样】，首先将一个序列分成一个个子序列，然后对子序列进行排序，最后将排好序的子序列进行合并；----所以需要写递归函数。将其不停的分为左边和右边两份，然后以此递归分下去。然后再将她们按照两个有序数组的样子合并起来。所以当将这左右两边分到不可分【也就是数组长度为1】，也就到了该合并的时候。这里显示了归并排序的第一步... 原创

103阅读

0评论

0点赞发布博客于 1 年前数据结构算法--排序--冒泡排序冒泡排序是交换排序的一种，所以需要两两比较，在满足判定条件的情况下，进行交换操作；动图解释算法分析假设数组中有N 个数字需要排序；1. 需要N-1轮排序【最后两个一次排序就可确定】，如果不设置没轮里面，比较的次数，那么需要N-1词的，设置的话就是N-i次2. 冒泡排序中，每进行一次排序，总是会把最大量找出来，放在最后一个位置；例：第一趟比较之后，排在最后的一个数... 原创

56阅读

0评论

0点赞发布博客于 1 年前机器学习 -- DeepWalk 1.0 DeepWalk的提出Word2Vec是基于序列进行Embedding；但是随着实体之间的关系越来越复杂，网络化，此时序列Embedding需要升级为Graph Ebedding；1.1 基本概念：节点的度：在图论中，和该节点相关联的边的条数，特别地，对于有向图，进入该节点边的条数称为节点的入度；从该节点发出边的条数称为出度；1.2 DeepWalk的步骤构建每一个节点... 原创

148阅读

0评论

0点赞发布博客于 1 年前机器学习 --ID3/C4.5 以及决策树参数一. ID3/C4.51. ID3算法是决策树一个经典的构造算法，内部使用信息熵和信息增益来进行构建，每次迭代选择信息增益最大的特征属性作为分隔属性；ID3只支持离散的特征，不支持连续的特征； ID3算法构建的是多叉树；依赖特征属性较多特征，但实际上并不是最优的【产生误导】，因此必须用特征的信息熵进行惩罚/归一化；不会进行剪枝操作！2. C4.5，使用信息增益率代替信息增... 原创

220阅读

0评论

0点赞发布博客于 1 年前机器学习 --集成学习算法调参 1、RF调参方法参考：http://wakemeup.space/?p=187http://blog.csdn.net/y0367/article/details/51501780http://blog.csdn.net/sun_shengyun/article/details/546181212、AdaBoost调参方法：http://www.cnblogs.com/pinard/p/... 转载

76阅读

0评论

0点赞发布博客于 1 年前机器学习特征工程【汇总1】目录需要哪些数据数据如何存储数据如何清洗数据特征工程1. 需要哪些数据在进行机器学习之前，存在一个收集数据的过程，我们主要按照以下规则找出我们所需要的数据：业务的实现需要哪些规则？基于对业务规则的理解，尽可能找出对因变量有影响的所有自变量的数据数据埋点的流程：提需求— 前端植入埋点代码块— 灰度测试— 测试验收— 发版上线数据的可用性评估... 原创

124阅读

0评论

0点赞发布博客于 1 年前 2019抖音数据报告.pdf 抖音2019年度报告，主要从用户维度、行业维度、用户年龄维度等来分析。短视频从业者必备手册。欢迎下载，有问题可以联系。

pdf 发布资源于 1 年前机器学习 Word2vec---2 python实现过程获取语料库# define the corpus# 处理方法1import retext = \'natural language processing and machine learning \\is fun and exciting\'corpus = re.split(\'[
]|\\s+\', text)# 处理方法2from gensim.utils import simple... 原创

206阅读

0评论

1点赞发布博客于 1 年前机器学习 Word2Vec ---1基本简介 Word Embeding [词嵌入] 简介VSM空间向量模型(VSMs)将词向量映射于一个连续的向量空间中，语义上近似的单词对应的词向量映射到向量空间中也是相邻的数据点。向量空间模型在自然语言处理领域中有着丰富且漫长的历史，不过几乎所有利用这一模型的方法都依赖于分布式假设，其核心思想为：出现于上下文情境中的词汇都有类似的语义。采用这一假设的研究方法大致上分为以下几类：基于统计计数的方法... 原创

92阅读

0评论

0点赞发布博客于 1 年前机器学习特征工程-特征选择特征选择(FeatureSelection)\\color{DodgerBlue}{特征选择(Feature Selection)}特征选择(FeatureSelection) 在机器学习流程中，前期获取“足量”的训练数据是至关重要的一个步骤。“足量”包括两个方面：一个是特征层面，另一个是训练数据量。但是并不是所有的特征都会用于模型训练，主要是因为不必要的特征不仅会降低训练速度、降低模型的可解释性... 原创

263阅读

0评论

0点赞发布博客于 2 年前推荐系统 Word2vector 在使用Uni-gram模型时(也就是词袋法)时，会导致数据非常稀疏。那么我们在训练模型时，就需要更多的数据。会导致存储和计算开销激增。One-hot-Representation 是最常用的词表示方法。它的优点是简单直观，容易理解。但是会出现词向量维数爆炸的问题，因为有多少个词，词向量就有多少维度，计算开销太大。OneHot还有一个问题，两个在词义上相似的词，在词向量上却没有相似性。... 原创

141阅读

0评论

0点赞发布博客于 2 年前 scikit-leann 新版本【0.22】目前，在pycharm中可以直接安装0.22版本的scikit-learn了：在python 或者 anacoda中，也可以直接升级：# pythonpip install --upgrade scikit-learn# condaconda install scikit-learn目录：stacking 模型融合特征处理中利用KNN近邻填充–KNNImputer便捷的ro... 原创

395阅读

0评论

0点赞发布博客于 2 年前机器学习 7 XGBoost 1. 集成算法总结1.1 Bagging随机森林：多个基模型的构建是基于不同数据来构建的，各个模型是独立，不提提高准确度，但是可以降低过拟合；1.2 Boosting通过迭代的形式，基于之前构建好的模型，对样本数据做一定的修正【或者改变权重/标签值】然后影响之后模型的构建。不断迭代构建的目的是：让预测更加准确，提升准确度，降低偏差；Adaboost通过修正样本的权重GBD... 原创

108阅读

0评论

0点赞发布博客于 2 年前机器学习 6 GBDT(梯度提升决策树) 基本概念GBDT也是Boosting算法的一种，但是和Adaboost算法不同；如别如下：Adaboost算法是利用前一轮的弱学习器的预测误差率来更新样本权重，然后一轮一轮的迭代；GBDT也是迭代，但是GBDT要求的弱学习器必须是CART模型，而且GBDT在模型训练的时候，模型预测的样本损失尽可能小；GBDT底层只支持决策树，并且是回归决策树；别名：GBT(Gradient Bo... 原创

93阅读

0评论

0点赞发布博客于 2 年前机器学习 5 AdaBoost 目录Boosting 的基本思想AdaboostGradient Boosting(GBT/GBDT/GBT)1. Boosting 思想提升学习（Boosting）是一种机器学习技术，可以用于回归和分类的问题，它每一步产生弱预测模型(如决策树)，并加权累加到总模型中；如果每一步的弱预测模型的生成都是依据损失函数，那么就称为梯度提升(Gradient boosting)；提升技术... 原创

68阅读

0评论

0点赞发布博客于 2 年前机器学习 4 随机森林目录随机森林提升算法GBDT(迭代决策树)Adaboost1. Bagging思想1.1 Bagging API参数参数值解释base_estimator基学习器可以采用其他算法，相对较为灵活n_estimators学习器的个数子模型的数目max_samples给定子模型训练时，用多少个样本训练，这个是总样本百分比max_fea... 原创

177阅读

0评论

0点赞发布博客于 2 年前机器学习 3决策树目录：信息熵决策树决策树的优化剪枝决策树的可视化1. 信息熵1.1 决策树的直观理解用于判断借款风险的决策树当构建好一个模型之后，新来一个用户的时候，可以根据构建好的模型直接进行判断。可以发现有两个问题：选择那些特征来做分割？对于选定的特征，应该选择什么分割点？1.2 信息熵定义假设现在随机变量X具有m个值，分别是：V1， V2, V3…,Vm，并... 原创

81阅读

0评论

0点赞发布博客于 2 年前机器学习 2KNN 算法目录KNN算法KD-Tree1. KNN算法原理1.1 基本原理KNN(K-nearest-neighbors)是一种基本的机器学习算法，所谓K近邻，就是K个最近的邻居的意思，说的是每个样本都可以用与它最近的K个邻居来表示。比如，判断一个人的人品，只需要观察与之最密切的几个人的品行即可；KNN算法即可以用到分类应用中，也可以用到回归应用中；KNN在做回归和分类的主要区别在于最后... 原创

96阅读

0评论

0点赞发布博客于 2 年前机器学习军规(machine learning rules) 机器学习军规机器学习在实际工作中，更多的是工程问题，并非算法问题。因此首要要从工程效率中要效果，达到上线之后，再考虑算法的升级；不要害怕上线一个没有机器学习应用的产品；首先要设计和实现算法的评估指标，这些指标包括：算法本身的评价指标，比如score，acc，auc等；模型推荐结果的评价，对于TopN问题，有recall， precision ；对于评分预测问题，有MSE, RMSE；... 原创

60阅读

0评论

0点赞发布博客于 2 年前机器学习 1回归算法目录线性回归Logistic回归Softmax回归梯度下降特征抽取线性回归案例1. 回归算法综述回归算法是一种有监督的算法【有label】回归算法是一种比较常用的机器学习算法，用来建立“解释变量”（自变量x）和观测值（因变量Y）之间的关系；从机器学习的角度讲，用于构建一个算法模型，来做属性和标签之间的隐射关系，那么在算法训练过程中，寻找一个函数h：RdR^dRd- R... 原创

168阅读

0评论

0点赞发布博客于 2 年前《推荐系统实践》第1章好的推荐系统 1.1 什么是推荐系统电商公司APP就是帮助用户找到自己所需要的信息/物品；如果用户知道自己需要什么，就通过搜索框【检索系统】或自己的经验浏览货架；如果提供的商品数量/信息量太大，就利用商品的类目或者属性信息来做初步过滤；如果用户自己也不知道需要什么样的，就要利用推荐系统来给用户推荐出商品。推荐系统产生的条件：1、用户自己也不清楚自己的购买需求；2、商品数量过多，存在信息过载。... 原创

551阅读

0评论

0点赞发布博客于 2 年前机器学习 1机器学习概述目录最大似然估计法SVD、QR矩阵分解梯度下降法求解参数1. 梯度下降法梯度下降法公式：xk+1x_{k+1}xk+1 = xkx_kxk - α\\alphaα * (ΔxkΔyk)\\left(\\frac{{\\Delta}x_k}{{\\Delta}y_k}\\right)(ΔykΔxk)就是为了求函数的最小值点，我们先求取xmin，然后带入到函数中，求取整个函数的最小值... 原创

152阅读

0评论

0点赞发布博客于 2 年前 Python 的正则匹配国庆7天，没有追逐诗和远方，在公司把python的前置知识理了一下。其中，正则匹配这块忘记的差不多了，就重新学习了一下。1. 正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些字符、以及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串用来表达对字符串的一种过滤逻辑”，简单来说，就是提取字符串中的特定的内容。常见的正则语法：语法 ... 原创

53阅读

0评论

0点赞发布博客于 2 年前 pyspark 中DataFrame的操作 1、查询1.1 行元素的查询操作--显示：data.show(30) ------ 数据类型：dataframe --取某几行：data.head() ----------数据类型： Rowdata.take(5) , data.head(5) --------list 类型，注意：两种数据类型不一样！以树的形式打印概要，相当于sql 中的des... 原创

666阅读

0评论

0点赞发布博客于 2 年前 PYSPARK 学习库一、pyspark 机器学习库ml1、ML 和 MLlib的区别 ml 目前处于维护状态（只修复bug而不增加新功能），并且以后会支持ml ，MLlib 在spark3.0中可能会被废弃（学习spark的小伙伴直接用ml库就好） ml库基于DataFrame，MLlib基于RDD 。DataFrame是抽象在rdd之上的，其耦合度低，抽象级别更高； m... 原创

88阅读

0评论

0点赞发布博客于 2 年前 ALS 算法一、业务背景主要是没出评分值的user_item_mat ，计算缺失值；二、算法推导三、用python实现算法流程3.1 生成user_item_mat :import numpy as npLATENT_FACTOR = 4user_set = tuple([\'user\' + str(i) for i in range(1, 8)])item... 原创

540阅读

0评论

0点赞发布博客于 2 年前

本文链接： http://galbraith.immuno-online.com/view-741172.html

发布于： 2021-03-25 阅读（0）

没有了