문학에서 발견 된 더 많은 수학

실제로 단어 발생은 Zipf의 법칙을 따릅니다.

많은 문학 작품에서 단어 빈도는 간단한 수학 법칙을 따릅니다. © picaland / freeimages, scinexx
소리내어 읽기

쌍곡선으로서의 단어 빈도 : 연구원들은 문학 작품에서 또 다른 수학적 법칙을 발견했습니다. 텍스트에 단어가 나타나는 빈도와 그 다음에 가장 자주 나오는 관계는 놀랍도록 간단한 공식으로 표현할 수 있습니다. 구텐베르크 프로젝트에서 30, 000 개가 넘는 영어 작품 중 절반 이상이이 Zipf 법률에 동의했습니다.

수학적 원리가 문학에 숨겨 질 수 있다는 사실은 최근에 많은 세계 문학 작품에서 프랙탈 구조를 발견 한 것으로 입증되었습니다. 그러나 서면 텍스트에는 Zipfsche 법이라는 훨씬 더 피상적 인 수학이 있습니다. 1930 년 미국 언어 학자 George Zipf에 의해 설립 된이 규칙은 텍스트에서 특정 단어의 빈도가 놀랍도록 간단한 수학 함수를 따릅니다.

쌍곡선으로서의 단어 빈도

Zipf의 법칙에 따르면 가장 간단한 형태의 단어 빈도 분포는 공식 1 / n의 쌍곡선에 해당합니다. 특히 텍스트에서 가장 일반적인 단어는 두 번째로 가장 많이 사용되는 단어의 두 배이며, 세 번째 단어보다 세 배 더 자주 사용되는 식입니다. 소설 Effi Briest von Fontane 분석과 같은 개별 작업에 대해서는 이미이 관계를 확인했습니다.

"Effi Briest"의 샘플에서 단어 빈도 분포는 대략 Zipf의 법칙에 해당합니다. 1 / n © Berklas / CC-by-sa 2.5

그러나 Zipf의 법은 모든 문학 작품에 유효합니까? 바르셀로나의 Autònoma de Barcelona의 연구원들은 구텐베르크 (Gutenberg) 프로젝트의 모든 영어 작품이이 수학적 법칙의 세 가지 변형에 동의하는지 처음으로 조사했다. 과학자들은 그 어느 때보 다 30, 000 개의 식물을 시험했습니다.

40 ~ 55 %의 좋은 경기

결과 : 모든 단어가 고려된다면, 문학 작품의 약 40 %가 Zipfschen 법의 가장 간단한 공식을 따릅니다. 연구자들이 한 권의 책 전체에 한 번만 등장한 단어를 제거하면이 비율은 55 %로 향상되었습니다. 디스플레이

연구 책임자 인 알바로 코랄 (Alvaro Corral)은“많은 작품에서 그 단어가 그렇게 단순한 하나의 매개 변수 공식을 따른다는 것은 매우 놀라운 일이다. "문학은 가장 창조적 인 자유 형식 중 하나로 여겨지지만 윌리엄 셰익스피어 나 찰스 디킨스조차도 Zipf의 법의 폭정을 피할 수는 없습니다."

언어에 따라 Zipf 변형이 있습니까?

연구자들이 강조한 것처럼, 가능한 많은 텍스트에 대한 Zipf 변형이 오히려 그 반대가 아니라는 것이 목표였습니다. 그들은 의도적으로 다소 엄격한 조건을 선택했습니다. 과학자들은“그래서 가장 간단한 Zipf 배포판이 너무 많은 텍스트로 얼마나 잘 작동하는지 놀랍습니다.

Zipfschen 법의 다른 두 가지 더 복잡한 변형은 텍스트에 덜 적합합니다. 연구원들에 따르면 이것은 영어와 관련이있을 수 있습니다. 영어에서는 명백한 회절 형태를 갖는 단어가 상대적으로 적기 때문에 다른 언어보다 빈도가 낮은 단어가 적으므로 의심됩니다. 이것이 다른 Zipf 변형에 더 잘 맞을지 여부에 대해서는 추가 연구가 결정되어야합니다.

약간의 Zipf가 어디에나 있습니다

그건 그렇고 : Zipf의 법칙은 결코 문학에 국한되지 않습니다. 음악 소리, 웹 사이트 방문자 또는 회사 직원과 같은 다양한 영역에 숨겨져 있습니다. 우리 몸 세포의 단백질 빈도 에서도이 수학적 법칙이 다시 발견됩니다.

Isabel Moreno-S.nchez와 그녀의 동료들은“설명을 찾으려는 많은 시도가 있었다. "하지만 지금까지는 유효한 솔루션에 동의 할 수 없었습니다."앞으로 더 많은 양의 데이터를 분석 할 수있는 새로운 가능성을 볼 수 있습니다. (PLSO ONE, 2016; doi : 10.1371 / journal.pone.0147073)

(University Aut noma de Barcelona, ​​24.02.2016-NPO)