machine-learn

清理文本数据

2021-11-21hush阅读(222)赞(0)

目录介绍清除文本数据总结参考引用介绍数据在大多数情况下都是杂乱无章、杂乱无章、难以处理的，这一点也不足为奇。当你从教育实践中学习数据科学时，你将看到大多数数据都是从多个来源、多个查询中获得的，这可能会导致一些不干净的数据。在...

垃圾邮件检测:第2部分

2021-11-04hush阅读(234)赞(0)

介绍对自然语言进行分类是当今自然语言处理面临的巨大挑战之一。它涉及到能够有效区分目标文本和正常文本的技术。其他服务，如聊天机器人，也严重依赖用户输入的文本。他们需要处理大量数据，以确定用户需求并引导正确的路径。 Tensorflow的使...

垃圾邮件检测.第1部分

2021-11-04hush阅读(226)赞(0)

垃圾邮件检测是机器学习算法在过滤垃圾邮件方面的一个重要应用。在自然语言处理领域，有几种算法可用于此类分类。通常垃圾邮件都有一些典型的词语。在本文中，我们将使用nltk软件包详细介绍垃圾邮件和非垃圾邮件的文本处理。特别是我们将看到NLP的词...

探索深度学习库——Keras

2021-11-02hush阅读(214)赞(0)

介绍 Keras 最初是作为 Theano 的一个方便的附加组件而发展起来的，长久以来，Keras首早先开始支持Tensorflow，然后完全成为其中的一部分。然而，我们的文章不会致力于讲述这个框架的复杂命运，而是它的功能。安装安装 K...

中文分词利器 jieba 和 HanLP

2021-05-06hush阅读(581)赞(0)

前言从本文开始，我们进入实战部分。首先，我们按照中文自然语言处理流程的第一步获取语料，然后重点进行中文分词的学习。中文分词有很多种，常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp ...

主成分分析（PCA）原理详解

2021-05-04hush阅读(516)赞(0)

1.相关背景在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下，许多变量之间可能...

详解CNN卷积神经网络

2021-05-03hush阅读(452)赞(0)

概揽卷积神经网络（Convolutional Neural Networks / CNNs / ConvNets）与普通神经网络非常相似，它们都由具有可学习的权重和偏置常量(biases)的神经元组成。每个神经元都接收一些输入，并做一些点...

Python中决策树分类器DecisionTreeClassifier参数

2021-05-02hush阅读(496)赞(0)

一、参数 criterion：特征选择标准，【entropy, gini】。默认gini，即CART算法。 splitter：特征划分标准，【best, random】。best在特征的所有划分点中找出最优的划分点，random随机的在...

数据预处理之独热编码（One-Hot）

2021-04-18hush阅读(467)赞(0)

前言 ———————————————————————————————————————— 在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其...

machine-learn

清理文本数据

垃圾邮件检测:第2部分

垃圾邮件检测.第1部分

探索深度学习库——Keras

中文分词利器 jieba 和 HanLP

主成分分析（PCA）原理详解

详解CNN卷积神经网络

Python中决策树分类器DecisionTreeClassifier参数

数据预处理之独热编码（One-Hot）

热门文章

热门搜索

seo超级工具

关注微信公众号：themebetter
复制微信号

回顶部

machine-learn

热门文章

热门搜索

seo超级工具

关注微信公众号：themebetter复制微信号

回顶部

关注微信公众号：themebetter
复制微信号