python处理数据,pandas 处理txt文件

以wordsim240为例

目前大多数的数据集以txt文件居多,但是我们在数据处理中,可能最终会在Excel上进行一些分析、制图,

当然也可以使用python制图包,也可以做出很精美的结果图。

此篇只是简单的读取,文件,保存到Excel中,可以做一些回归分析、相关系数等;

txt中的原始数据

​
import pandas as pd

data = pd.read_csv('240-set.txt', sep='\t', names=['word1', 'word2', 'sim'])
# data.to_excel('240.xlsx')

​

 sep="\t"是原始文档间的空格每一个文档可能都不一样,可能有空格,逗号或者是\n,根据情况选择

names用来设置列名,如果不设置的话,则默认使用第一列作为列名,返回结果看起来非常奇怪!

这样一行的代码,看起来就是非常的整齐舒服。

接下来的话,就是可以把数据保存到Excel中,

data.to_excel('240.xlsx')

一句话即可,将处理的文档写入到当前路径中的Excel中了

读取某行某列的数据。可以使用这样的索引方式

我们现在想要获取前5行的两个词语

for i in range(5):
    print(data.loc[i][0], data.loc[i][1])

data.loc即是行的索引,后面的[0], [1] ,[2]即是对应的列值


更多精彩内容